UnsortedSegmentSum

对输入张量按给定的 segment 索引进行无序分段求和操作。

对于每个输入元素,根据其对应的 index 值,将其累加到输出张量中 对应的 segment 位置。不同 segment 之间的顺序不做任何排序保证。

\[\text{output}_{s, j} = \sum_{i \,|\, index_i = s} \text{input}_{i, j}\]

其中:

  • \(i \in [0, \text{dim0})\)

  • \(j \in [0, \text{dim1})\)

  • \(s \in [0, \text{id\_max})\)

输入:
  • input - 输入张量的数据地址。 数据类型需与所调用的 UnsortedSegmentSum 接口类型一致。

  • index - segment 索引数组地址,类型为 int*, 长度为 dim0,用于指定每一行输入数据所属的 segment。

  • dim0 - 输入张量的第 0 维大小(segment 数量维度)。

  • dim1 - 输入张量的第 1 维大小(每个 segment 内的元素数量)。

  • id_max - segment 的最大数量,决定输出张量的第 0 维大小。

  • core_mask - 核掩码(仅共享存储版本使用)。

输出:
  • output - 输出张量的数据地址, 形状为 [id_max, dim1], 数据类型与 input 保持一致。

支持平台:

FT78NE MT7004

备注

  • 该算子为无序分段求和(Unsorted),不保证 segment 内或 segment 间的顺序。

  • 输出张量在计算前会被初始化为 0。

  • index 中的取值范围应满足 0 <= index[i] < id_max

共享存储版本:

void fp_unsorted_segment_sum_s(float *input, float *output, int *index, int dim0, int dim1, int id_max, int core_mask)
void dp_unsorted_segment_sum_s(double *input, double *output, int *index, int dim0, int dim1, int id_max, int core_mask)
void i8_unsorted_segment_sum_s(int8_t *input, int8_t *output, int *index, int dim0, int dim1, int id_max, int core_mask)
void i16_unsorted_segment_sum_s(int16_t *input, int16_t *output, int *index, int dim0, int dim1, int id_max, int core_mask)
void i32_unsorted_segment_sum_s(int32_t *input, int32_t *output, int *index, int dim0, int dim1, int id_max, int core_mask)
void c64_unsorted_segment_sum_s(float *input, float *output, int *index, int dim0, int dim1, int id_max, int core_mask)
void c128_unsorted_segment_sum_s(double *input, double *output, int *index, int dim0, int dim1, int id_max, int core_mask)

C调用示例:

 1// FT78NE 示例
 2#include <stdio.h>
 3#include <unsorted_segment_sum.h>
 4
 5int main(int argc, char* argv[]) {
 6    float *input = (float *)0xA0000000;    // input 在 DDR 空间
 7    float *output = (float *)0xB0000000;
 8    int *index = (int *)0xA1000000;
 9
10    int dim0 = 128;
11    int dim1 = 64;
12    int id_max = 16;
13    int core_mask = 0xff;
14
15    fp_unsorted_segment_sum_s(input, output, index, dim0, dim1, id_max, core_mask);
16    return 0;
17}

私有存储版本:

void fp_unsorted_segment_sum_p(float *input, float *output, int *index, int dim0, int dim1, int id_max)
void dp_unsorted_segment_sum_p(double *input, double *output, int *index, int dim0, int dim1, int id_max)
void i8_unsorted_segment_sum_p(int8_t *input, int8_t *output, int *index, int dim0, int dim1, int id_max)
void i16_unsorted_segment_sum_p(int16_t *input, int16_t *output, int *index, int dim0, int dim1, int id_max)
void i32_unsorted_segment_sum_p(int32_t *input, int32_t *output, int *index, int dim0, int dim1, int id_max)
void c64_unsorted_segment_sum_p(float *input, float *output, int *index, int dim0, int dim1, int id_max)
void c128_unsorted_segment_sum_p(double *input, double *output, int *index, int dim0, int dim1, int id_max)

C调用示例:

 1// MT7004 示例
 2#include <stdio.h>
 3#include <unsorted_segment_sum.h>
 4
 5int main(int argc, char* argv[]) {
 6    float *input = (float *)0x10000000;    // input 在 L2 空间
 7    float *output = (float *)0x10010000;
 8    int *index = (int *)0x10020000;
 9
10    int dim0 = 64;
11    int dim1 = 32;
12    int id_max = 8;
13
14    fp_unsorted_segment_sum_p(input, output, index, dim0, dim1, id_max);
15    return 0;
16}